package study.core.rdd

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 创建RDD方式二
 * 从外部存储（文件）创建 RDD
 *
 * @author zh
 * @date 2021/5/15 08:49
 */
object Create02 {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("createRdd")
    val context = new SparkContext(sparkConf)

    // 从文件中读取，以行为单位
    val rdd = context.textFile("data")
    rdd.collect().foreach(println)

    // wholeTextFiles是以文件为单位，返回的是一个元组，第一个为文件，第二个为文件内容
    // (file:/Users/zhanghe/Desktop/user/myself/GitProject/test/data/11.txt,hello world)
    val rdd1 = context.wholeTextFiles("data")
    rdd1.collect().foreach(println)
    context.stop()
  }
}
